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"Architettura per processori" 

* * * 

Campo dell / invenzione 

La presente invenzione si riferisce alle 
5 architetture di processori, in particolare del tipo 
correntemente denominato "pipeline" . 
Descrizione della tecnica nota 

Uno degli effetti principali dell ' introduzione 
della tecnica di "pipelining" e la modifica della 

10 temporizzazione relativa delle istruzioni conseguente 
alia sovrapposizione parziale della loro esecuzione / il 
che introduce fattori di conflitto o alea dovuti sia 
alle dipendenze di dati (data hazard) sia alle 
modif iche del flusso di controllo (control hazards) . In 

15 particolare questi conflitti emergono quando l'awio 
delle istruzioni attraverso la pipeline modifica 
l'ordine degli accessi in lettura/scrittura degli 
operandi rispetto all'ordine naturale del programma 
(cioe rispetto all ' esecuzione sequenziale delle 

20 istruzioni in processori non-pipeline) . 

Al riguardo si pud far utilmente riferimento al 
testo di J. Hennessy and D . A. Patterson, "Computer 
Architecture: A Quantitative Approach", Morgan Kaufmann 
Publishers, San Mateo, CA, Second Edition, 1996. 

25 L'insieme di problemi legati in particolare ai 

conflitti sui dati pud essere risolto a livello 
hardware con la tecnica di inoltro correntemente 
denominata "forwarding" (od anche "bypassing" e 
talvolta "short-circuiting"). Questa tecnica utilizza i 

30 registri inter-stadio dell ' architettura pipeline per 
inoltrare i risultati di un' istruzione Ii , prodotti da 
uno stadio della pipeline, direttamente agli ingressi 
dei stadi antecedenti della pipeline stessa onde essere 
utilizzati nell ' esecuzione di istruzioni che seguono 

35 Ii. Un risultato pud essere pertanto inoltrato 
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dall'uscita di un' unita funzionale verso gli ingressi 
di un'altra che la precede nel flusso lungo la 
pipeline, cosi come a partire dall'uscita di un'unita 
verso gli ingressi della stessa unita. 
5 Per assicurare questo meccanismo di forwarding e 

necessario prevedere nel processore i necessari 
percorsi di inoltro (bypass) e il controllo di tali 
percorsi. La tecnica di forwarding pud richiedere un 
percorso specifico a partire da ciascun registro della 

10 struttura pipeline verso gli ingressi di qualunque 
unita funzionale, come nel caso dell ' architettura 
denominata DLX alia quale si fa riferimento nel testo 
gia in precedenza citato. 

I dati sottoposti a bypass verso le unita 

15 funzionali dei primi stadi dell ' architettura pipeline 
vengono di norma comunque memorizzati nel banco di 
registri (Register File o RF) durante 1' ultimo stadio 
della pipeline (vale a dire il cosiddetto stadio di 
riscrittura o Write-Back) in vista di un successivo 

2 0 impiego nel programma in via d'esecuzione. I processori 
che utilizzano la tecnica di forwarding conseguono 
sostanziali miglioramenti in termini di prestazioni 
grazie all ' eliminazione dei cicli di stallo introdotti 
da fattori di alea sui dati (data hazard) - 

25 I principal! problemi legati al meccanismo di 

forwarding nell'ambito dei ' processori, ed in 
particolare nell'ambito dei processori denominati VLIW 
(acronimo per* Very Long Instruction Word) sono stati 
studiati in lavori quali: A. Abnous and N. Bagherzadeh, 

30 "Pipelining and Bypassing in a VLIW Processor", IEEE 
Trans, on Parallel and Distributed Systems, Vol. 5, No. 
6, June 1994, pp. 658-663 ed H, Corporaal , 
"Microprocessor Architectures from VLIW to TTA" , John 
Wiley and Sons, England. 
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In quest i lavori sono stati analizzati i vantaggi 
in termini di prestazioni di vari schemi di bypassing, 
in particolare per quanto riguarda la loro efficacia 
nel risolvere alee dati nelle architetture pipeline 
5 tanto a quattro quanto a cinque stadi. 

II fat to di sf rut tare i valori trasf eriti tramite 
i percorsi di bypass negli stadi della pipeline e stato 
combinato con 1 ' introduzione di una piccola cache di 
registri al fine di migliorare le prestazioni, cosi 
10 come descritto nel lavoro di R. Yung and N. C. Wilhelm, 
"Caching Processor General Registers" , ICCD *95, 
Proceedings of IEEE International Conference on 
Computer Design, 1995, pp. 307-312. In questa 
architettura, denominata Register Scoreboard and Cache, 
15 gli operandi della pipeline vengono forniti o dalla 
cache di registri o dalla rete di bypass. 

Nel lavoro di L. A. Lozano and G. R. Gao, 
"Exploiting Short -Lived Variables in Superscalar 
Processors" , MICRO-28, Proceedings of 28th Annual 
2 0 IEEE/ACM International Symposium on Microarchitecture, 
1995, pp. 292-302 e stato proposto, in relazione a 
processor! superscalar!, uno schema che comprende 
un'analisi compiuta dal compilatore ed un' estensione 
dell ' architettura al fine di evitare scritture 
25 definitive nel banco registri (commit) dei valori di 
variabili destinate ad avere una breve durata e che di 
conseguenza non richiedono la persistenza sul lungo 
periodo nel banco dei registri. I vantaggi forniti da 
questa soluzione sono stati valutati dagli autori 
30 prevalentemente in termini di riduzione delle porte di 
scrittura verso il banco di registri e di riduzione 
della quantita di trasf erimenti da registri a memoria 
necessari, cosi da conseguire miglioramenti nel tempo 
di esecuzione. II lavoro citato riporta i miglioramenti 
35 legati a questa soluzione in termini di prestazione, 
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senza che peraltro siano stati considerati gli effetti 
in termini di assorbimento di potenza. 

II concetto di evitare la presenza nel banco di 
registri di informazione priva di valore utile (dead 
5 value) e stata analizzata nel lavoro di M. M. Martin, 
A. Roth, C. N. Fischer, "Exploiting Dead Value 
Information", MICRO-30, Proceedings of 30th Annual 
IEEE/ACM International Symposium on Microarchitecture, 
1997, pp. 125-135, I valori nei registri vengono 

10 considerati inutili, ossia M morti ;/ , quando essi non 
vengono letti prima di essere sottoposti a 
sovrascrittura. I vantaggi di questa soluzione sono 
stati studiati in termini di riduzione delle dimensioni 
del banco dei registri e di eliminazione di istruzioni 

15 di salvataggio/ripristino non necessarie a partire dal 
flusso di esecuzione in corrispondenza delle chiamate 
di procedura e attraverso il cambio di contesto. 

Cosi come dimostrato in lavori quali A. 
Chandrakasan and R. Brodersen, "Minimizing Power 

20 Consumption in Digital CMOS Circuits", Proc . of IEEE, 
83(4), pp. 498-523, 1995 e K. Roy, S. C. Prasad "Low- 
Power CMOS VLSI Circuit Design", John Wiley and Sons, 
Inc., Wiley-Interscience, 2000, un ridotto assorbimento 
di potenza costituisce un'esigenza sempre piu 

25 importante per i processor! di tipo embedded. Le 
tecniche a basso assorbimento di potenza vengono 
ampiamente utilizzate nella progettazione dei 
microprocessor! al fine di far fronte a stringenti 
limitazioni in termini di assorbimento massimo di 

3 0 potenza e di affidabilita operativa, mantenendo 
inalterate le caratteristiche in termini di velocita di 
elaborazione . 

La maggior parte delle tecniche a basso 
assorbimento di potenza sviluppate per i circuiti CMOS 
35 digitali mirano a ridurre la potenza di commutazione , 



che rappresenta il contributo piu signif icativo al 
bilancio complessivo di potenza . Per i processori con 
elevate prestazioni, le soluzioni a basso assorbimento 
di potenza rnirano a ridurre la capacita efficace C EFF 
dei nodi del processore sottoposti a commutazione . II 
parametro C EFF di un nodo e definito come prodotto della 
capacita del carico C L e dell ' attivita di commutazione 
a del nodo. Nei processori CMOS digitali e possibile 
ottenere notevoli economie in termini di assorbimento 
di potenza minimizzando 1' attivita di transizione dei 
bus ad alta capacita, come i bus del data-path e i bus 
di ingresso/uscita. Un'altra parte signif icativa del 
bilancio di potenza nei processori moderni e dovuta 
agli accessi ai banco dei registri multi-porta a ad 
altri accessi a cache on-chip. 

Scopi e sintesi della presente invenzione 

La presente invenzione si prefigge lo scopo di 
fornire un' architettura di processore in grado di 
superare gli inconvenient! e le limitazioni delineate 
in precedenza . 

Secondo la presente invenzione, tale scopo viene 
raggiunto grazie ad un' architettura avente le 
carat teristiche richiamate in modo specif ico nelle 
rivendicazioni che seguono . 

In modo specif ico, I'obiettivo principale 
dell ' invenzione e quello di definire un criterio di 
ottimizzazione dell ' architettura per processori di tipo 
pipeline a schedulazione statica ed in particolare per 
processori pipeline del tipo VL.IW in grado di sfruttare 
la tecnica di forwarding dei dati in relazione alle 
variabili a vita breve (variabili "short-lived") cosi 
da conseguire economie nell 7 assorbimento di potenza. 

In sostanza, I'idea posta alia base 

dell ' invenzione consiste nei ridurre 1' attivita di 
accesso al banco di registri (RF) , evitando di 
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memorizzare stabilmente variabili a vita breve. Questo 
e possibile - con un overhead trascurabile in termini 
di hardware - grazie alia preesistente disponibilita di 
registri interstadio e di opportuni percorsi di inoltro 
5 (bypass) . Le variabili a vita breve vengono 
semplicemente memorizzate localmente dall' istruzione 
che le produce nei registri interstadio ed inoltrate 
direttamente verso 1 ' opportuno stadio dell ' istruzione 
che le utilizza, sfruttando i percorsi di inoltro 

10 (bypass). L' istruzione che produce le variabili non 
attua, quindi, una costosa azione di riscrittura 
(write-back) verso il banco di registri e 1' istruzione 
che utilizza le variabili non deve realizzare, a sua 
volta, alcuna lettura a part ire dallo stesso banco di 

15 registri (RF) . 

L' applicazione di questa tecnica richiede la 
valutazione della durata di vita L (liveness length) 
della n-esima assegnazione ad un registro R, definita 
come distanza fra la sua n-esima assegnazione ed il suo 

20 ultimo impiego. Questa informazione consente di 
decidere se la variabile deve essere memorizzata nel 
banco di registri in vista di un uso successivo owero 
se il suo uso e in realta limitato a pochi cicli di 
clock. In quest 'ultimo caso, la variabile e a vita 

25 breve ed il suo valore puo essere passato come operando 
alle istruzioni successive utilizzando i cammini di 
inoltro (bypass) , evitando quindi di scriverlo nel 
banco di registri. 

La decisione relativa al fatto di abilitare la 

30 fase di scrittura verso il banco di registri pud essere 
presa dall ' hardware in fase di esecuzione oppure 
anticipata in fase di compilazione del programma 
sorgente. A differenza di quanto awiene nei processor! 
superscalari, nei quali la maggior parte delle 

35 decisioni vengono prese dall ' hardware al momento 



dell ' esecuzione, 1 ' applicazione della tecnica di 
inoltro (bypass) a basso assorbimento di potenza nelle 
architetture di tipo VLIW pud essere attuata in fase di 
schedulazione statica da parte del compilatore . Questo 
modo di procedere riduce la complessita della logica di 
controllo del processore . 

L'architettura proposta diventa particolarmente 
attraente con rif erimento ad alcune applicazioni di 
tipo embedded, per cui l'analisi della vita utile dei 
registri ha dimostrato che l'intervallo di riuso di piu 
di meta di tutte le definizioni dei registri e limitata 
alle due istruzioni successive. 

Le caratteristiche piu importanti della soluzione 
secondo l'invenzione sono le seguenti: 

la soluzione secondo l'invenzione propone 
un'estensione di tipo architetturale della rete di 
inoltro (bypass) del processore cosi da evitare la 
scrittura e la successiva lettura verso il/a part ire 
dal banco di registri delle variabili a vita breve; 

e possibile analizzare gli effetti sul 
compilatore della soluzione architetturale a basso 
assorbimento di potenza proposta per i processori di 
tipo VLIW, con la dimostrazione del fatto che 
1 ' implement a zione consente di limitare 1' overhead in 
termini di hardware; 

e possibile la trattazione delle eccezioni 
(esempio: error traps, divisione per zero, ecc); 

- la soluzione secondo l'invenzione e estendibile 
anche a processori con piu di cinque stadi di pipeline 
(comprendenti piu di tre cammini di inoltro) cosi da 
ottenere economie in termini di assorbimento di potenza 
per variabili la cui lunghezza di vita e maggiore di 
tre; 

- la soluzione secondo l'invenzione apre il campo 
ad ulterior! economie in termini di assorbimento di 
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potenza ottenibili tramite un' ottimizzazione della 
schedulazione delle istruzioni, sfruttando al massimo 
il parallelisrno intrinseco di tali processor! e mirando 
a minimizzare la "vita media" (liveness) delle 
5 variabili. 

Breve descrizione dei disegni annessi 
L' invenzione verra ora descritta, a puro titolo di 
esempio non limitativo, con riferimento ai disegni 
annessi, nei quali : 
10 - la figura 1 e un diagrarnma che illustra i 

risultati di un'analisi condotta in relazione alia vita 
attiva dei registri nell'ambito di un processore, 

la figura 2 illustra, sotto forma di uno 
schema a blocchi funzionale, 1 ' applicazione 
15 di un' architettura secondo 1' invenzione 

nell'ambito di un processore, 

la figura 3 e un diagrarnma che illustra le 
modalita con cui si procede alia 
trattazione delle eccezioni nell'ambito di 
20 un processore secondo 1 ' invenzione, e 

le figure 4 e 5 ' illustrano in ancora 
maggior dettaglio le modalita di attuazione 
di una soluzione secondo 1 ' invenzione . 
Descrizione dei fondamenti teorici dell 9 invenzione 

2 5 Come premessa alia descrizione part icolareggiata 

di un esempio di attuazione dell ' invenzione, e utile 
riportare nel seguito i risultati di alcune analisi 
sperimentali condotte al f ine di stabilire la durata di 
vita (liveness) delle variabili in applicazioni di tipo 

3 0 embedded. 

Lo scopo specifico e stato quello di misurare - in 
fase di esecuzione - la percentuale di definizioni di 
registri nel codice applicativo che possono essere 
lette direttamente dalla rete di inoltro, senza essere 
35 scritte nel banco di registri RF. 
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L'analisi sopra descritta e stata condotta 
utilizzando a titolo di esempio un insieme di algoritmi 
DSP di impiego corrente scritti in linguaggio C e 
compilati con un compilatore VLIW industriale su 32 bit 
5 e 4 vie. 

L'analisi del tempo di vita dei registri pud 
essere condotta sia in modo statico sia in modo 
dinamico . 

L'analisi di tipo statico consiste 

10 nell ' ispezionare in modo statico il codice assembler 
generato dal compilatore nell'ambito di ciascun blocco 
basico cosi da rilevare la durata del tempo di vita dei 
registri . 

L'analisi di tipo dinamico consiste nell ' ispezione 
15 delle tracce di esecuzione del codice assembler, che 
fornisce un'informazione di profiling piu accurata in 
relazione agli accessi ai registri in 

lettura/scrittura . 

I risultati riportati nel seguito si riferiscono 
2 0 alia soluzione dinamica. 

Ciascun programma di prova e stato opportunamente 
strumentato a livello di assembler con un tool 
automatico e poi simulato, cosi da tenere conto delle 
informazioni rilevanti in corrispondenza di ciascun 
25 ciclo di clock: 

- definizioni dei registri; 

- impieghi dei registri ; e 

- conf ini dei blocchi basici riscontrati . 

Per ciascun blocco basico nella traccia, l'analisi 
30 del tempo di vita dei registri e stata realizzata 
definendo la durata di vita L della n-esima 
assegnazione ad un registro R come la di stanza 
(misurata in numero di istruzioni) fra la n-esima 
assegnazione e il suo ultimo utilizzo: 
35 Ln(R) = U n (R) - D n (R) 
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dove D n (R) e l'indice di traccia dell ' istruzione 
che ha realizzato la n-esima assegnazione ad R e U n (R) 
e l'indice dell 'ultima istruzione che ha utilizzato la 
n-esima assegnazione a R prima della ridef inizione di R 
5 durante la (n+1) -esima assegnazione D n+1 (R) . 

In un' architettura VLIW si puo assumere un 
throughput pari ad un' istruzione lunga per ciclo di 
clock . 

Volendo mantenersi in termini di un'analisi molto 
10 conservativa, il calcolo di L n (R) e stato effettuato 
con le seguenti limitazioni: 

- U n e D n sono nello stesso blocco basico; 

- D n+ i e D n sono nello stesso blocco basico. 
Queste regole consentono di semplificare l'analisi 

15 considerando unicamente tempi di vita che non 
attraversino i confini fra i blocchi basici. Tuttavia, 
questa ipotesi non costituisce limitazione rilevante, 
dal momento che la maggior parte dei compilatori VLIW 
modern! massimizzano le dimensioni dei blocchi basici, 
20 generando cosi un numero rilevante di campi di vita che 
si risolvono completamente all'interno dei rispettivi 
blocchi basici . 

Per chiarire questo concetto, si pud analizzare 
una traccia di codice assembler per una macchina VLIW 
25 su quattro vie che esegue un algoritmo DCT (Discrete 
Cosine Transform) . II codice analizzato e costituito da 
quattro istruzioni lunghe (qui indicate come 27268, 
27269, 27270 e 27271) : 

27268 shr $rl6 = $rl6, 8 

30 sub $rl8 = $rl8, $r7 

add $rl7 = $rl7, $rl9 
sub $rl9 = $rl9, $rl5 ; 



27269 shr $rl8 = $rl8, 8 

35 shr $rl7 = $rl7 # 8 



shr $rl9 = $rl9, 8 
mul $r20 = $r20, 181 ; 



27270 sub $rl0 = $rl0, $r8 

mul $rll = $rll, 3784 
sub $r5 = $r!2, $r9 ; 



27271 sub $rl0 = $rl0, $r3 

add $r20 = $r20, 128 
brf $r26, label_232 

in cui ciascuna istruzione lunga e identif icata da 
un indice di esecuzione, un insieme comprendente da 1 a 
4 operazioni e termina con un w ; " . 

In questo esempio si pud osservare un confine che 
conclude un blocco basico in corrispondenza 
dell' istruzione 27271 (1 ' operazione di salto 
condizionale) . 

Se si considera il tempo di vita dell ' assegnazione 
del registro $rl8 in 27268 (D n ) si vede che questa 
definizione viene utilizzata per 1' ultima volta in 
272 69, dal momento che c'e un'altra definizione del 
registro $rl8 nello stesso ciclo (vale a dire, D n+ i) . II 
valore di L n di $rl8 e pertanto pari ad un ciclo di 
clock. Va notato che non e possibile calcolare il 
valore Ln+i di $rl8 dal momento che non ci sono ne 
ultimi utilizzi U n+1 ne ridef inizioni D n+2 nello stesso 
blocco basico. 

Ai fini dell'analisi e stato considerato un 
insieme di programmi di prova (benchmark set) 
costituito dai seguenti algoritmi : 

- un filtro con risposta all 'impulse finita (FIR), 

un programma campione che realizza una DCT 
(Discrete Cosine Transform) ed un IDCT (Inverse 
Discrete Cosine Transform) , 

- una DCT ottimizzata, 
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- una IDCT ottimizzata, e 

- una trasf ormata "wavelet" . 

Si noti che le versioni ottimizzate degli 
algoritmi DCT/IDCT sono caratterizzate, per migliorare 
5 le prestazioni, da un numero piu basso di accessi a 
memoria e da un piu elevato ri-utilizzo dei registri 
rispetto agli altri algoritmi. 

La distribuzione dei valori di tempo di vita dei 
registri rilevati dagli algoritmi presi in 
10 considerazione e riportata nella tabella 1 che segue ed 
e sintetizzata in modo grafico nella figura 1 dei 
disegni annessi . 



Durata di 


vita 


dei 


registri 


(cicli 


di 


clock) 




Algoritmo 


1 


2 


3 


4 


5 


6 


7 


8 


FIR 


0% 


13% 


10% 


10% 


0% 


0% 


0% 


0% 


DCT/IDCT 


28% 


12% 


8% 


3% 


2% 


1% 


1% 


0% 


DCT ( ot.) 


32% 


14% 


11% 


6% 


2% 


1% 


0% 


0% 


IDCT 


42% 


12% 


6% 


5% 


2% 


1% 


1% 


1% 


(ot . ) 


















Wavelet 


7% 


17% 


1% 


0% 


2% 


0% 


0% 


0% 



15 

Nella tabella le colonne rappresentano la 
percentuale di registri la cui vita e pari ad un valore 
L dato compreso nel campo da 1 a 8 cicli di clock 
(istruzioni) . 

20 Nella figura 1 dei disegni annessi, la scala delle 

ordinate rappresenta il suddetto valore di percentuale 
in funzione del valore di L, riportato sulla scala 
delle ascisse. 

Tanto la tabella quanto la figura 1 consentono di 

2 5 rendersi conto del fatto che - pur con ipotesi 
semplif icative - per gli algoritmi ottimizzati si 
riscontra che circa la meta di tutte le definizioni di 
registro presenta valori di tempo di vita non superiori 



- 13 - 



a 2 cicli di clock (rispettivamente il 46% e il 54% per 
I'algoritmo DCT e l'algoritmo IDCT) . In media, nel 
35,4% dei casi la distanza fra la definizione del 
registro e 1' ultimo suo impiego e minore o uguale a due 
5 cicli di clock, mentre nel 42,6% la distanza e minore o 
uguale a 3 cicli di clock. 

L'analisi non tiene inoltre conto del caso in cui 
un registro non venga mai letto fra due definizioni 
successive. In realta si pud avere una sovrascrittura 
10 del registro, ad esempio, attraverso blocchi basici o 
durante commutazioni di contesto del processore (in 
risposta ad un' interruzione esterna, per esempio), ma 
tale fenomeno non pud essere stimato in modo statico 
all'atto della compilazione nell'ambito di un blocco 
15 basico. Seppur vantaggioso per la soluzione secondo 
1 ' invenzione, il fenomeno e comunque non ri levant e per 
l'analisi corrente, la quale pone 1 ' accento su una 
funzione di ottimizzazione applicabile nell'ambito di 
un blocco basico durante la fase di compilazione 
20 statica VLIW. 

Descrizione particolareggiata di un esempio 
preferito di attuazione dell 9 invenzione 

Lo schema della figura 2 si riferisce, a titolo di 
esempio non limitativo, ad un' architettura di 
25 processore VLIW su quattro vie con una pipeline su 
cinque stadi prowista di logica di inoltro. 

Gli stadi della pipeline sono i seguenti: 

IF: prelievo delle istruzioni (Instruction 
Fetch) dalla cache istruzioni (I -cache) , 
30 - ID: decodifica delle istruzioni e lettura degli 

operandi dal banco di registri RF, 

EX: esecuzione delle istruzioni in unita 
aritmetico logiche (ALU) con latenza pari ad un ciclo, 
MEM: accessi a memoria per istruzioni di 
3 5 caricamento/memorizzazione , 
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- WB: ri-scrittura degli operandi nel banco di 
registri RF. 

Tre cammini di inoltro (EX-EX, MEM-EX e MEM-ID) 
forniscono collegamenti diretti fra coppie di stadi 
5 attraverso i registri interstadio EX /MEM e MEM/WB . 

I vari simboli e designazioni riportati nella 
figura 2 sono ben noti ai tecnici esperti del settore e 
non richiedono pertanto di essere descritti in 
dettaglio in questa sede. Cio vale tanto in relazione 
10 al loro significato, quanto riguardo alia loro 
funzione. 

L' architettura in questione e applicabile, ad 
esempio, nei core VLIW di tipo embedded della famiglia 
Lx sviluppata congiuntamente dagli Hewlett-Packard 

15 Laboratories e dalla Richiedente. Ciascun cluster della 
famiglia Lx comprende quattro unita aritmetico logiche 
(ALU) per operandi interi su 32 bit, due moltiplicatori 
16x32 ed un' unita di caricamento/mernorizzazione . II 
banco di registri RF comprende 64 registri general 

20 purpose su 32 bit e 8 registri di branching su un bit. 

Con riferimento alia rete di inoltro considerata 
in precedenza, si consideri una sequenza W = 
Wi...w 2 -..w n di istruzioni lunghe. Una generica 
istruzione w k pud leggere i suoi operandi prodotti 

25 dalle seguenti istruzioni: 

w k _! attraverso il cammino di inoltro EX/EX 
(utilizzato quando w k e nello stadio EX) , 

- w k _ 2 attraverso il cammino di inoltro MEM/EX 
(utilizzato quando w k e nello stadio EX) , 

3 0 - w k _ 3 attraverso il cammino di inoltro MEM/ID 

(utilizzato quando w k e nello stadio ID) , 

- w k _ n quando n > 3 nel banco di registri RF. 

Come indicato, la soluzione secondo 1'invenzione 
inibisce la scrittura e le successive letture degli 
3 5 operandi nel banco di registri RF ogni volta che i 
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valori scritti possono essere rintracciati a partire 
dalla rete di inoltro per il loro ridotto tempo di 
vita . 

Cio awiene in modo specifico attraverso il 
5 segnale Write inhibit generato selettivamente nello 
stadio ID e destinato ad agire su un nodo WI interposto 
nel cammino del segnale di riscrittura Write back dallo 
stadio WB verso il banco di registri RF. 

Ipotizzando, ad esempio, che un'istruzione w d 
10 assegni un registro R il cui tempo di vita e minore o 
uguale a 3 e che w k utilizzi R durante questo 
intervallo di vita, 1 ' idea di base e quella di ridurre 
1 ' assorbimento di potenza: 

- disabilitando la scrittura di R nello stadio WB 
15 di w d/ e 

impedendo a w k di asserire l'indirizzo per la 
lettura dal banco di registri RF per leggere R 
(ottenuto a partire dalla rete di bypass) . 

In generale, mentre il fat to di evitare la 
2 0 riscrittura deve essere esplicitamente indicato 
nell'istruzione lunga w d/ 1 ' inf ormazione relativa al 
fatto che gli operandi sorgente debbono essere derivati 
dai cammini di inoltro viene in ogni caso resa 
disponibile dalla logica di controllo, quale che sia il 
25 tempo di vita della variabile. Di conseguenza e 
possibile evitare la lettura dal banco di registri RF 
ogniqualvolta ci si attende che gli operandi sorgente 
vengano estratti a partire dai cammini di inoltro 
(bypass) . 

30 La funzione di ottimizzazione dell ' assorbimento di 

potenza descritta viene implementata con una logica 
dedicata nello stadio ID che disabilita i segnali di 
abilitazione in scrittura nel banco di registri RF e 
minimizza l'attivita di commutazione delle porte di 

35 lettura del banco di registri RF mantenendo i gli 
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indirizzi di lettura in ingresso pari a quelli 
dell 'ultimo ciclo di accesso utile. 

Come esempio pratico, si pud far riferimento alia 
sequenza di istruzioni considerate in precedenza ed in 
5 particolare alle istruzioni denominate 27268 e 27269. 
La riscrittura dei registri $rl8 / $rl7 e $rl9 nel banco 
di registri RF durante l'esecuzione di 27268 pud essere 
evitata, e la successiva lettura di tali valori durante 
l'esecuzione di 27269 pud essere effettuata 
10 direttamente a partire dal cammino EX-EX della rete di 
bypass . 

In un processore superscalare , questo 

comport amento dovrebbe essere controllato tramite 
hardware, analizzando la finestra di istruzione cosi da 
15 calcolare il tempo di vita di un registro e generare 
segnali di controllo verso gli stadi della pipeline. 

In un' architettura VLIW, tutte le decisioni di 
schedulazione che riguardano i dati, le risorse ed il 
controllo vengono risolte durante la compilazione in 
2 0 fase di schedulazione del codice, cosi come descritto, 
ad esempio nel lavoro di A. V. Aho, R. Sethi, J. D. 
Ullman, "Compilers: Principles, Techniques, and Tools," 
Addison-Wesley, 1986. 

Di conseguenza, la decisione relativa al fatto se 

2 5 il registro di destinazione debba essere inibito per 

quanto riguarda la scrittura oppure no, pud essere 
demandata al compilatore, mantenendo limitato 
1 ' overhead di hardware . 

Per passare 1 ' inf ormazione dal compilatore alia 

3 0 logica di controllo hardware e possibile seguire due 

vie diverse: 

- riservare specifici bit di operazione in fase di 
codifica del formato di un 7 istruzione lunga : soluzione 
adatta in fase di definizione del set di istruzioni, 
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sebbene suscettibile di aumentare leggermente la 
lunghezza di codifica delle istruzioni; o 

- sfruttare i bit di codifica delle istruzioni non 
utilizzati: soluzione attuabile quando il set di 

5 istruzioni e gia stato definito, con possibility di 
risparmiare lunghezza di istruzioni ma con 
1 ' eventualita di limitare le economie in termini di 
potenza ad un sottoinsieme delle operazioni presenti 
nel set di istruzioni . 
10 In entranibi i casi, minimizzando l'attivita di 

commutazione del banco di registri RF, si aumenta 
leggermente l'attivita di commutazione delle unita di 
memoria in cui si immagazzinano le istruzioni. 

Per quanto riguarda il problema della gestione 
15 delle eccezioni, si puo ipotizzare che lo stato del 
processore possa essere : 

uno stato di architettura permanente 
immagazzinato nel banco di registri RF, o 

- uno stato di architettura volatile immagazzinato 
2 0 nei registri interstadio della pipeline a partire dai 

quali la rete di inoltro trasferisce gli operandi 
sorgente . 

Lo stato di architettura volatile viene trattato 
come una memoria FIFO (First In First Out) , la cui 
25 capacita e pari al numero di stadi durante i quali il 
risultato di un' operazione puo essere immagazzinato 
nella pipeline (nel caso dell ' architettura su cinque 
stadi rappresentata nella figura 2, tale capacita e 
pari a tre) . 

30 In generale, un processore pipeline assicura che 

quando un elemento esce dallo stato volatile, esso 
viene automat icamente riscritto nel banco di RF. 

Al contrario, nella soluzione qui descritta, 
quando un elemento esce dallo stato volatile e non 
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viene piu utilizzato, esso pud essere scartato evitando 
la riscrittura del banco di RF. 

Questo comport amento pud creare alcun problemi 
quando si manifesta un'eccezione durante 

5 l'elaborazione. 

Nell ' architettura qui trattata come esempio di 
riferimento, un'eccezione pud presentarsi in 
particolare durante gli stadi ID, EX o MEM e pud essere 
trattata nello stadio WB . 

10 Sulla base della tassonomia delle eccezioni 

definita nel lavoro H. Corporaal gia citato in 
precedenza, si assume che il processore adotti il modo 
di funzionamento correntemente denominate "user- 
recoverable precise mode" . 

15 Sulla base di questo modello, le eccezioni possono 

essere esatte o inesatte. 

Un'eccezione esatta causata da un'istruzione 
emessa al tempo t e un'eccezione precisa tale da 
richiedere che i cambiamenti di stato causati dal 

20 trattamento delle eccezioni risultino visibili per 
tutte le istruzioni emesse al e dopo 1'istante t ed a 
nessuna delle istruzioni emesse in precedenza. Inoltre, 
tutti i cambiamenti di stato delle istruzioni emesse 
prima dell'istante t sono visibili alia funzione di 

2 5 trattamento dell ' eccezione . 

Se si assume che le eccezioni siano trattate nel 
modo esatto, quando 1' istruzione costituente 
un'eccezione raggiunge lo stadio WB, le istruzioni 
sulla pipeline vengono eliminate (flushed) e 

3 0 rieseguite. 

Si faccia riferimento alia situazione della figura 
3, al ciclo x un'istruzione w k legge i suoi valori da 
un' istruzione w k -2 inibita per quanto riguarda la 
scrittura attraverso la rete di inoltro. Alio stesso 
35 tempo, si supponga che 1' istruzione w k _! generi 
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un'eccezione durante lo stadio MEM. I risultati di w k _ 2 
sarebbero perduti, ma e invece necessario che questi 
valori vengano utilizzati durante la riesecuzione di 
w k . Dal momento che ne la rete di inoltro ne il banco 
5 di RF contengono i risultati di w k _ 2/ lo stato di 
architettura visto durante la riesecuzione di w k (al 
ciclo x+nn) risulterebbe non corretto. 

Al fine di garantire che le istruzioni nella 
pipeline vengano rieseguite nello stato corretto del 
10 processore, i valori inibiti per quanto riguarda la 
scrittura devono essere scritti nel banco di registri 
RF ogniqualvolta negli stadi ID, EX o MEM si genera un 
segnale di eccezione. 

Nel caso dell'esempio precedente, vale a dire con 
15 w k _i che genera un'eccezione nello stadio MEM, la 
soluzione qui descritta forza la riscrittura dei 
risultati di w k _x e w k - 2 nel banco di RF, per cui 
durante la riesecuzione di w k al ciclo x+nn gli 
operandi vengono letti dal banco di RF. 

2 0 Qualora si assuma invece che le eccezioni vengano 

trattate nel modo non esatto o x inesatto', quando si ha 
un'eccezione, le istruzioni presenti nella pipeline 
vengono eseguite fino al completamento, senza osservare 
gli effetti dell ' eccezione che viene trattata 
25 successivamente. In questo caso, tutte le istruzioni 
nella pipeline vengono costrette a riscrivere i 
risultati nel banco di registri. 

L' architettura rappresentata in figura 2 e in 
grado di garantire entrambi i meccanismi di gestione 

3 0 delle eccezioni descritti in precedenza. 

Quando le eccezioni vengono trattate in modo 
esatto, il tempo di vita di un registro supportato e 
minore o uguale a due cicli di clock (attraverso i 
cammini EX/EX e MEM /EX) . 



V 
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Quando le eccezioni vengono gestite in modo non 
esatto, il tempo di vita del registro che le utilizza 
pud essere esteso a tre cicli di clock (attraverso i 
cammini EX/EX, MEM/ EX e MEM/ ID) . 
5 Per quanto riguarda specif icatamente il caso degli 

interrupt o i fenomeni di "cache miss", la natura 
asincrona degli interrupt consente di trattarli come 
eccezioni non esatte forzando ciascuna istruzione lunga 
nella pipeline a riscrivere i risultati prima di 

10 trattare 1' interrupt; i fenomeni di cache miss 
producono invece fenomeni assimilabili a bolle che si 
propagano lungo la pipeline, per cui ogni volta che la 
logica di controllo della cache solleva un segnale di 
miss, si forza la riscrittura dei risultati delle 

15 istruzioni nella pipeline. 

Ad ulteriore chiarif icazione della descrizione 
fornita in precedenza si pud notare che, secondo uno 
degli element! di maggiore interesse dell ' invenzione, 
le sezioni dati dei registri interstadio della 

20 struttura a pipeline diventano in pratica un ulteriore 
strato - a livello piu alto - della gerarchia di 
memoria . 

Nel seguito questi registri verranno chiamati 
microregistri . 

25 Essi sono visibili al compilatore ma non al 

programmatore . 

Le regole di ottimizzazione per il loro impiego 
sono particolari, e diverse da quelle degli element i 
del banco di registri . 

30 Essi non sono indirizzabili in scrittura (o 

meglio, vengono indirizzati in modo implicito) e le 
regole per 1 ' indirizzamento in lettura sono legate 
all' architettura, essendo piu restrittive rispetto a 
quanto awiene per gli elementi del banco di registri. 
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Come si e indicato, la soluzione secondo 
I'invenzione si basa essenzialmente sulla funzione di 
inoltro (bypass) cosi da evitare le scritture e le 
letture nel banco di registri cosi da ridurre 
5 1 ' as sorb i merit o di potenza. 

Ogni volta che identifica variabili a vita breve 
tali da rendere possibile la soluzione di inoltro, ed 
avendo verificato che sono riscontrate le condizioni 
indicate nel seguito, il compilatore non riserva 
10 registri nel banco di registri per tali variabili. 

Per quanto riguarda 1'uso da parte del 
compilatore, lo spazio del banco di registri viene cosi 
di fatto aumentato , riducendo quindi il fenomeno di 
register spilling ed il traffico di cache che ne 
15 deriva . 

Si consideri in dettaglio la struttura pipeline su 
cinque stadi schematicamente rappresentata nel la figura 
4 e complessivamente simile a quel la rappresentata 
nella figura 2, con la previsione tuttavia di due stadi 
2 0 EX1 ed EX2. 

Si prenda come esempio un'istruzione di linguaggio 
di alto livello del tipo: 

x : =a*b+c-d 

che viene tradotta in codice intermedio come : 
25 t 0 = a*b 

t x =c-d 
x=t 0 +ti . 

Si supponga che la latenza di operazione sia pari 
ad 1 per la sottrazione e a 2 per la moltiplicazione . 
30 Se si indica con \i 0 la sezione di risultato nel 

latch all'uscita dello stadio EX2 e con \x x la 
corrispondente sezione nel latch all'uscita dello 
stadio EX1, le tre operazioni elementari viste in 
precedenza si traducono in un linguaggio 
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pseucioassemblatore che sfrutta i microregistri nel modo 
seguente 

mul Rl/ R2 si assume che a, b, c, d siano 

inizialmente immagazzinati nei 
5 registri Rl a R4 

sub 4L1 , R3 , R4 

add R5, \x 2 il risultato finale e 

immagazzinato in R5 . 
con i cammini di inoltro a partire dai latch che 
10 vengono sfruttati cosi come rappresentato appunto nella 
figura 4. 

Per una pipeline su cinque stadi, la distanza 
massima ammissibile fra la scrittura di una variabile 
in un microregistro e l'impiego della stessa variabile 

15 e pari a tre. Cid crea una limitazione per il 
compilatore, che e in grado di sfruttare i 
microregistri solo nella misura in cui e possibile una 
schedulazione nell'ambito della distanza accettabile. 
Naturalmente, se si utilizzano pipeline piu profonde e 

20 possibile utilizzare distanze piu elevate (e procedure 
di schedulazione piu complesse, nonche un'ulteriore 
riduzione nell'impiego del banco di registri RF) . 

Questo primo esempio si riferisce ad un codice 
sequenziale. Nel caso di cicli (loop) i microregistri 

25 possono essere utilizzati anche attraverso i confini 
dei cicli, purche le limitazioni indicate in precedenza 
risultino soddisfatte tanto fra i cicli quanto 
all'interno dei cicli. 

Se si considera 1'estensione ad una semplice 

3 0 (pura) architettura VDIW, il punto interessante e 
costituito dalla possibilita di avere sillabe (in 
parallelo in un'unica istruzione lunga ) caratterizzate 
da latenze diverse. 
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In questo caso pud essere necessario tenere conto 
dei trasf erimenti fra microregistri lungo i cammini 
della pipeline. 

Si consideri ancora lo stesso segmento di codice 
5 visto in precedenza, ed una strut tura VLIW con due 
cammini (lane) con un' unita aritmetico-logica ed un 
moltiplicatore, ossia una struttura corrispondente a 
quella rappresentata nella figura 5. 

Si supponga inoltre che le latenze siano le stesse 
10 viste in precedenza. II codice viene pertanto 
schedulato nel modo seguente 

il mul \i 0 2 , Rl, R2; sub \i x X » R3 , R4 

l'apice indica lo stadio, il 
pedice il percorso 
15 i2 nop il contenuto di {Jo 1 scorre 

lungo il percorso verso \i± 2 r 
mentre il risultato finale 
della moltiplicazione e 
immagazzinato in [Iq 2 

2 0 i3 add R5 , jj, 0 2 , |iii 2 . 

Inoltre, se i cammini di inoltro present i nella 
microarchitettura lo consentono, si possono prevedere 
trasf erimenti dai microregistri in un percorso verso 
unita funzionali in un diverso percorso. In ogni caso, 
25 le limitazioni base per il compilatore - oltre a quelle 
inerenti alia latenza - sono le seguenti : 

- il microregistro di scrittura e sempre quello 
nel percorso dove si trova 1 ' unita f unzionale ; i 
trasf erimenti in avanti lungo la pipeline sono quindi 

3 0 limitati alio stesso percorso ; 

- la lettura dai microregistri e sempre permessa 
nell'ambito dello stesso percorso e - quando si ha a 
che fare con diversi percorsi - nella misura in cui i 
percorsi di bypass lo permettono. 
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Li' impiego dei microregistri puo creare criticita 
quando si hanno da trattare interrupt (e, piu in 
generale, eccezioni) . 

In effetti, i microregistri possono essere visti 
5 come tali da costituire una memoria "transitoria" , e 
dunque tali da non poter essere associati con uno stato 
della macchina da salvare nel caso di un'eccezione 
(tranne nel caso in cui si preveda una soluzione quale 
una pipeline "ombra" ) . 
10 Per quanto riguarda la gestione degli interrupt, 

si possono proporre due diverse possibili soluzioni a 
questo problema. 

Una prima soluzione si basa sulla definizione di 
una ' sequenza atomica' , nel senso che la sequenza di 
15 istruzioni che utilizzano i microregistri viene vista 
come una sequenza atomica e , come tale, non 
suscettibile di essere interrotta. L' interrupt viene 
disabilitato prima dell'inizio della sequenza e lo 
stato della macchina viene reso stabile (tramite 

2 0 scrittura nel banco di registri o nella memoria) prima 

che 1' interrupt venga riabilitato. Questa soluzione non 
richiede un'estensione dell'insieme di istruzioni o 
della microarchitettura, e viene di fatto trattata 
soltanto dal compilatore. 
25 Un'altra soluzione e basata su un principio 

suscettibile di essere denominato funzione di 
"checkpoint" . 

Vengono int r odo 1 1 e due nuove i s t ru z i oni ( i n 
realta, pseudo-istruzioni utilizzate dal compilatore e 
30 che influenzano soltanto l'unita di controllo, non le 
pipeline) , ossia una dichiarazione di checkpoint 
(ckp.d) e un rilascio di checkpoint (ckp.r) . 

Al momento della dichiarazione di checkpoint, il 
Contatore di Programma (PC) viene salvato in un 

3 5 registro ombra e fino al momento di rilascio del 
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checkpoint lo stato di macchina non pud essere 
modificato (owiamente, questo implica che non vengono 
consentite istruzioni di memorizzazione) . Al momento 
del rilascio del checkpoint, il registro ombra viene 
5 reset tato e gli interrupt vengono disabilitati in modo 
atomico. I risultati calcolati nella sezione sottoposta 
a checkpoint possono essere finalmente memorizzati 
(committed) modificando lo stato reale del processore 
e, dopo di questo, gli interrupt vengono nuovamente 

10 abilitati per far ripartire 1'esecuzione normale. Nel 
caso di un interrupt fra ckp.d e ckp.r, il PC a part ire 
dal quale riparte 1'esecuzione dopo il trattamento 
dell ' interrupt e quello salvato nel registro ombra (e, 
evidentemente, alia luce delle limitazioni 

15 sull ' aggiornamento dello stato della macchina, lo stato 
della macchina e consistente con tale PC) . 

Al riguardo possono essere proposte due soluzioni 
alternative . 

In base alia prima soluzione, tutte le scritture 

20 nei registri nella sequenza fra ckp.d e ckp.r 
coinvolgono soltanto dei microregistri . II compilatore 
verifica se c'e una schedulazione tale da soddisfare 
tale limitazione. II banco di RF coinvolto soltanto 
per leggere dati. 

25 In base alia seconda soluzione, un (piccolo) 

sottoinsieme del banco di registri viene riservato in 
modo convenzionale per quelle variabili "transitorie" 
fra la dichiarazione del checkpoint ed il relativo 
rilascio, la cui vita utile supera quella massima 

3 0 consentita dalla lunghezza della pipeline . La prima 
comparsa di registri "transitori" nella sequenza 
sottoposta a checkpoint deve essere una def inizione (o 
un caricamento o una scrittura verso un registro) . 
Questi registri transitori non sono visti come una 

35 parte costituente dello stato della macchina dopo il 
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rilascio del checkpoint (ossia sono considerati valori 
morti dopo questo punto) . Va notato che, owiamente, 
l'adozione di quest! registri transitori pud implicare 
il rischio di un fenomeno di register spilling. Molto 
5 semplicemente, qualora dovesse risultare necessario 
procedere ad un register spilling, 1 ' uso dei 
microregistri viene escluso e viene adottata la 
compilazione normale con l'impiego del banco di RF. 

Naturalmente, fermo restando il principio 
10 dell ' invenzione, i particolari di realizzazione e le 
forme di attuazione potranno essere ampiamente variati 
rispetto a quanto descritto ed illustrato, senza per 
questo uscire dall'ambito della presente invenzione, 
•cosi come definita dalle rivendicazioni annesse. 



15 
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RIVENDICAZIONI 

1. Architettura di circuito processore di tipo 
pipeline comprendente una pluralita di stadi (IF, ID, 
EX, MEM, WB) ed una rete di cammini di inoltro (EX-EX, 

5 MEM-EX, MEM-ID) che collegano detti stadi nonche un 
banco di registri (RF) per la riscrittura degli 
operandi, caratterizzata dal fatto che comprende una 
funzione di ottimizzazione dell ' assorbimento di potenza 
tramite inibizione (Write Inhibit) della scrittura e 
10 delle successive letture in detto banco di registri 
(RF) di operandi rintracciabili a part ire da detta rete 
di inoltro per il loro ridotto tempo di vita. 

2. Architettura secondo la rivendicazione 1, 
caratterizza dal fatto che detta funzione e configurata 

15 per realizzare selettivamente , in relazione ad almeno 
un registro dato (R) assegnato da una prima istruzione 
(w d ) comprendente uno stadio di riscrittura (WB) ed 
utilizzato da una seconda istruzione (w*) : 

- la disabilitazione della riscrittura di detto 
2 0 registro (R) in detto banco di registri (RF) nello 

stadio di riscrittura (WB) di detta prima istruzione, e 

- 1' inibizione dell ' asserzione dell ' indirizzo di 
lettura di detto registro (R) in detto banco di 
registri (RF) da parte di detta seconda istruzione 

25 (w k ) . 

3 . Architettura secondo la rivendicazione 1 o la 
rivendicazione 2, caratterizzata dal fatto che 
comprende una logica dedicata per disabilitare i 
segnali di abilitazione di scrittura in detto banco di 

30 registri (RF) . 

4. Architettura secondo una qualsiasi delle 
precedent! rivendicazioni , caratterizzata dal fatto che 
comprende una logica dedicata che minimizza l'attivita 
di commutazione delle porte di lettura in detto banco 

35 di registri (RF) mantenendo i valori sugli indirizzi di 
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lettura in ingresso in corrispondenza dei cicli di 
clock precedenti 

5. Architettura secondo la rivendicazione 3 o la 
rivendicazione 4, caratterizzata dal fatto che 
comprende uno stadio (ID) di decodifica delle 
istruzioni e di lettura degli operandi da detto banco 
di registri (RF) e dal fatto che detta logica 
dedicata e compresa in detto stadio (ID) . 

6. Architettura secondo una qualsiasi delle 
precedenti rivendicazioni, caratterizzata dal fatto che 
detto processore e un processore superscalare 
comprendente un'unita controllo hardware suscettibile 
di analizzare la finestra di istruzione per determinare 
il tempo di vita dei registri. 

7. Architettura secondo. una qualsiasi delle 
rivendicazioni 1 a 5, caratterizzata dal fatto di 
essere configurata come architettura VLIW, in cui la 
decisione di attivare detta funzione di inibizione 
viene demandata al compilatore. 

8. Architettura secondo la rivendicazione 7, 
caratterizzata dal fatto che il compilatore trasferisce 
l'informazione verso la logica di controllo hardware 
riservando specifici bit di operazione nella codifica 
delle istruzioni. 

9. Architettura secondo la rivendicazione 7, 
caratterizzata dal fatto che il compilatore trasferisce 
1 ' inf ormazione verso la logica di controllo hardware 
sfruttando bit di codifica delle istruzioni non 
utilizzati . 

10. Architettura secondo una qualsiasi delle 
precedenti rivendicazioni, caratterizzata dal fatto che 
comprende registri interstadio (EX/MEM, MEM/WB) 
compresi fra gli stadi della struttura pipeline per 
immagazzinare uno stato di architettura volatile e dal 
fatto che 1 ' architettura e configurata per scartare 
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degli elementi che escono da detto stato volatile, 
evitandone la riscrittura in detto banco di registri 
(RF) . 

11. Architettura secondo la rivendicazione 10, 
5 caratterizzata dal fatto di essere suscettibile di 

operare su istruzioni conf igurabili come eccezioni e 
dal fatto che, per assicurare la riesecuzione di 
istruzioni costituenti eccezione nello stato corretto 
del processore, e prevista la riscrittura dei valori 
10 inibiti in relazione alia scrittura in detto banco di 
registri (RF) in presenza di un segnale che si 
configuri come eccezione. 

12. Architettura secondo la rivendicazione 11, 
caratterizzata dal fatto che comprende uno stadio (ID) 

15 di decodifica delle istruzioni e di lettura degli 
operandi da detto banco di dei registri (RF) , uno 
stadio di esecuzione delle istruzioni (EX) , ed uno 
stadio degli accessi di memoria (MEM) e dal fatto che 
detta riscrittura e prevista ogniqualvolta si genera un 

20 segnale di eccezione in uno di detti stadi (ID, EX, 
MEM) . 

13. Architettura secondo la rivendicazione 11, 
caratterizzata dal fatto che, in presenza di 
un' istruzione che si configuri come un' eccezione, 

25 1 ' architettura e configurata per eseguire fino al 
completamento le istruzioni sulla pipeline, prevedendo 
la riscrittura in detto banco di registri (RF) dei 
risultati di tutte le istruzioni sulla pipeline. 

14. Architettura secondo una qualsiasi delle 
30 precedenti rivendicazioni , caratterizzata dal fatto che 

comprende registri, quali ad esempio registri latch, 
interstadio (\i 0 , M-2) utilizzati come strato di 

memoria per la memorizzazione degli operandi. 

15. Architettura secondo la rivendicazione 14, 
35 caratterizzata dal fatto che detti registri interstadio 
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(ja 0 / V-i, P-2) / sono configurati cosi da risultare 
visibili al compilatore e non al programmatore . 

16. Architettura secondo la rivendicazione 14 o la 
rivendicazione 15, caratterizzata dal fatto che detti 

5 registri interstadio ([i Qf [i lf \x 2 ) non sono indirizzabili 
in scrittura, essendo indirizzati in modo implicito. 

17. Architettura secondo una qualsiasi delle 
rivendicazioni 14 a 16, caratterizzata dal fatto che 
detti registri interstadio (jx 0 / H-i/ H2) sono configurati 

10 come memoria transitoria non associabile ad uno stato 
di macchina suscettibile di essere salvato nel caso di 
un' eccezione . 

18. Architettura secondo la rivendicazione 17, 
caratterizzata dal fatto di essere configurata in modo 

15 tale per cui le sequenze di istruzioni che utilizzano 
detti registri interstadio (jx 0 , h*, ^ 2 ) vengono trattate 
come sequenze atomiche non suscettibili di essere 
sottoposte ad interrupt . 

19. Architettura secondo la rivendicazione 18, 
20 caratterizzata dal fatto che e prevista la 

disabilitazione di qualunque interrupt prima dell'awio 
di dette sequenze e dal fatto che lo stato della 
macchina viene reso stabile prima della riabilitazione 
dell ' interrupt , ad esempio tramite riscrittura nel 

2 5 banco di registri o in memoria. 

20. Architettura secondo la rivendicazione 17, 
caratterizzata dal fatto che comprende una funzione di 
generazione di due pseudo- istruzioni di dichiarazione e 
rilascio di checkpoint (ckp.d, ckp.r) rispettivamente 

3 0 con la previsione di un registro ombra cui il contatore 

di programma (PC) viene salvato dal momento di 
dichiarazione del checkpoint, lo stato di macchina non 
potendo essere modificato fino al rilascio del 
checkpoint, per cui al rilascio del checkpoint, il 
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registro ombra viene ripristinato e gli interrupt 
disabilitati in modo atomico. 

21. Architettura secondo la rivendicazione 20, 
caratterizzata dal fatto che i risultati calcolati fra 

5 dette due pseudo- istruzioni vengono affidati alio stato 
reale del processore con successiva riabilitazione 
degli interrupt per consentire il riawio 
dell ' esecuzione normale . 

22. Architettura secondo la rivendicazione 20 o la 
10 rivendicazione 21 , caratterizzata dal fatto. che, in 

presenza di interrupt fra dette pseudo- istruzioni , 

1' esecuzione viene fatta ripartire dopo il trsittamento 

■ J> 

degli interrupt a partire dal contatore di,. Y programma 
(PC) immagazzinato nel registro ombra. 

15 23. Architettura secondo la rivendicazione 20, 

caratterizzata dal fatto che tutte le scritture di 
registri comprese fra dette pseudo-istruzioni 
coinvolgono soltanto detti registri interstadio, per 
cui detto banco di registri (RF) viene coinvolto solo 

20 per la lettura dei dati. 

24. Architettura secondo la rivendicazione 20, 
caratterizzata dal fatto che comprende un sottoinsieme 
del banco di registri (RF) riservato per le variabili 
transitorie generate fra dette due pseudo-istruzioni e 

25 la cui vita eccede il valore massimo concesso dalla 
pipeline . 

25. Architettura secondo la rivendicazione 24, 
caratterizzata dal fatto che la prima apparizione di 
registri transitori nella sequenza sottoposta a 

3 0 checkpoint e una definizione quale un caricamento o una 
scrittura in un registro, suscettibile di essere vista 
come parte costitutiva dello stato di macchina dopo il 
rilascio del checkpoint. 
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RIASSUNTO 

Un'architettura di circuito processore di tipo 
pipeline, pref eribilmente del tipo VLIW, comprende una 
pluralita di stadi (IF, ID, EX, MEM, WB) ed una rete di 
5 cammini di inoltro (EX-EX, MEM-EX, MEM-ID) che 
collegano coppie di detti stadi nonche un banco di dei 
registri (RF) per la riscrittura degli operandi. E' 
prevista una funzione di ottimizzazione 

dell ' assorbimento di potenza tramite inibizione (Write 
10 inhibit) della scrittura e delle successive letture in 
detto banco di dei registri (FR) di operandi 

rintracciabili a partire da detta rete di inoltro per 
il loro ridotto tempo di vita. 
(Figura 2) 
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